Leia a tabela no documento.
Este exemplo de código demonstra como usar o mecanismo OCR IronTesseract para extrair texto e dados de tabela de um documento PDF.
- Uma instância do mecanismo OCR
IronTesseracté criada. - Um objeto
OcrInputé inicializado e um arquivo PDF ("table.pdf") é carregado usando o métodoLoadPdf. - O mecanismo OCR processa o documento usando o método
ReadDocumentAdvanced, que retorna um objetoOcrResultmais detalhado. - A primeira tabela encontrada no documento é acessada usando
result.Tables.First(), e as informações da célula para essa tabela são extraídas comCellInfos. - A lista de dados da célula (
cellList) agora contém as células da tabela, incluindo o conteúdo do texto e outros detalhes (por exemplo, posição da célula, tamanho). - Este método é útil para extrair dados estruturados, como tabelas, de PDFs, permitindo que o texto dentro de cada célula da tabela seja acessado e processado programaticamente.

